본문으로 건너뛰기

데이터 분석과 통계

데이터 분석의 통계의 관계

통계학은 데이터 분석의 이론적 기반을 제공하는 학문이며 데이터 수집부터 해석까지 전 과정에 영향을 미친다. 통계학은 이름으로만 보면 계산과 관련된 것이라고 데이터의 수집·분석·해석·표현을 다루는 학문이다. 과거에는 데이터 분석을 배울 때 통계학의 기초를 배우는 것부터 시작했다. 하지만 통계학은 학습 범위와 분량이 많은 편이다. 이론으로 깊이 배워야 할 내용이 너무 많아 책 한권에 그 내용을 모두 넣을 수도 없다. 그리고 매우 복잡하고 머리 아픈 그 수식을 들여다보고 이해하거나 수식을 직접 풀기도하고 증명하는 것도 해야 한다.

과거에는 통계학을 배우면 데이터 분석을 할 수 있다고 믿었고 통계학을 전공하는 것이 데이터 분석가가 되는 정규 코스였다. 통계학을 전공하지 않으면 분석가가 되기 어려웠다. 여전히 데이터 분석가가 되는 가장 보편적인 방법이다. 하지만 이제 데이터 분석을 할 때 반드시 통계학을 먼저 깊이 배워야하는 것은 아니며 AI 서비스가 여럿 생겨나면서 도움을 받아 통계학 지식이 깊지 않아도 데이터 분석을 시작하고 가능하게 되었다. 꼭 필요한 부분까지의 데이터 분석은 통계학을 깊이 배우지 않고 도움을 받아 할 수 있고 데이터 분석을 반복해서 하다보면 이해도가 높아지고 통계학에 대한 지삭과 이해도 점점 넓어지게 된다. 그것이 자연스럽게 데이터 분석 능력을 키우고 데이터로 부터 통찰을 기술을 알려준다.

((프롬프트)): 통계학이 무엇인지 알기 쉽게 설명해 주세요 ((AI챗봇 답)): 통계학은 우리가 주변에서 관찰하거나 수집한 여러 가지 데이터(숫자, 정보 등) 속에서 의미 있는 패턴이나 특징을 찾아내고, 이를 바탕으로 현상을 이해하거나 미래를 예측하는 방법을 연구하는 학문입니다.

예를 들어, 반 친구들의 키를 모두 측정해서 평균을 구하거나, 시험 점수의 분포를 살펴보는 것도 통계학의 한 부분입니다. 통계학은 단순히 숫자를 계산하는 것에 그치지 않고, 그 숫자들이 무엇을 의미하는지 해석하고, 더 나아가 전체 집단에 대해 추론하는 방법까지 포함합니다.

즉, 통계학은

  • 데이터를 수집하고(예: 설문조사, 실험 등)
  • 데이터를 정리하고(예: 표, 그래프 만들기)
  • 데이터를 분석해서(예: 평균, 분산, 상관관계 등)
  • 그 결과를 바탕으로 결론을 내리거나 예측하는(예: "이 약이 효과가 있다", "내년에 판매가 늘어날 것이다" 등) 과정을 다루는 학문입니다.

일상생활, 과학, 비즈니스 등 다양한 분야에서 통계학은 중요한 역할을 하며, 우리가 더 나은 결정을 내릴 수 있도록 도와줍니다.

통계학은 데이터를 분석해서 이해하고 어떤 결정을 할 때 더 나은 결정을 하는데 도움이 되는 기술을 배우는 학문이다.

통계학의 구분

다른 학문과 마찬가지로 통계학도 세부 갈래가 많아 학습 범위가 넓다. 통계학 내에서 전문 분야를 나누기도 하고 추구하는 이론적인 방향에 따라 나누기도 한다. 가장 잘 알려진 큰 갈래는 통계학을 분석 목적과 결과물을 적용하는 범위에 따로 기술통계와 추론통계로 나누는 것이다.

((프롬프트)): 기술통계와 추론통계를 비교해서 설명해 주세요 ((AI챗봇 답)): 기술통계와 추론통계는 모두 데이터를 이해하고 해석하는 데 중요한 역할을 하지만, 그 목적과 사용하는 방법에 차이가 있습니다.

**기술통계(Descriptive Statistics)**는 이미 수집된 데이터(표본 또는 모집단)의 특성을 요약하고 정리하는 데 중점을 둡니다. 예를 들어, 평균, 중앙값, 최빈값, 표준편차, 그래프(막대그래프, 히스토그램 등) 등을 사용하여 데이터가 어떤 분포를 보이는지, 대표값이 무엇인지, 데이터의 퍼짐 정도가 어떤지 등을 설명합니다. 즉, 기술통계는 "지금 가지고 있는 데이터가 어떤 모습인가?"를 파악하는 데 사용됩니다.

**추론통계(Inferential Statistics)**는 수집한 데이터(주로 표본)를 바탕으로, 그 데이터가 속한 더 큰 집단(모집단)의 특성을 추정하거나, 두 집단 간의 차이가 우연인지 아닌지 검정하는 데 목적이 있습니다. 예를 들어, 표본의 평균을 이용해 모집단의 평균을 추정하거나, 신약의 효과가 있는지 없는지 가설검정을 통해 판단하는 것이 추론통계에 해당합니다. 즉, 추론통계는 "이 데이터를 바탕으로 전체 집단에 대해 무엇을 알 수 있을까?"를 알아내는 데 사용됩니다.

정리하면,

  • 기술통계: 데이터 자체를 요약·정리·설명 (예: 평균, 분산, 그래프 등)
  • 추론통계: 표본 데이터를 이용해 모집단에 대해 추정·검정 (예: 가설검정, 신뢰구간 등)

이렇게 두 가지는 데이터 분석의 서로 다른 단계와 목적을 가지고 있습니다.

위와 같이 AI에게 물어 답을 받을 수 있지만 이것만으로 기본 지식이 없는 사람은 기술통계와 추론통계를 구별하기는 쉽지 않다.

기술통계(Descriptive Statistics)

기술통계(Descriptive Statistics)는 데이터(표본 또는 모집단)의 특성을 요약·정리·설명하는 데 초점을 둔다. 이미 확보한 데이터 내에서 평균, 중앙값, 분산, 표준편차, 시각화 등으로 데이터의 상태와 분포, 특징을 파악해서 설명하는 것이 목적이다. 기술통계는 분석 대상이 되는 데이터 자체에만 집중해서 다루며 그 결과를 이용해서 다른 집단이나 모집단(전체 집단)에 일반해서 적용하거나 하지 않는다. 즉, 입수한 데이터를 요약해서 이해하고 상태를 객관적으로 설명하는 것이고 추론을 하지 않는다. 일반적으로 사람들이 데이터 분석이라고 생각하는 것은 대부분 기술통계일 것이다.

데이터를 설명하기 위해서 데이터로 부터 계산해서 뽑은 여러 숫자와 그래프, 표를 사용한다.

요약값 구하기

  • 중심 경향치(평균, 중앙값, 최빈값)
  • 분산도(표준편차, 범위, 사분위수)
  • 분포 형태(정규분포, 왜도, 첨도)

데이터 시각화

  • 막대그래프, 히스토그램, 선그래프, 산점도, 원그래프(파이차트), 상자그림(박스플롯), 누적막대그래프, 영역그래프, 트리맵, 버블차트

그리고 나서 마지막으로 데이터 분석 보고서라는 문서를 작성하게 된다.

데이터 분석 보고서는 작성하는데 시간이 많이 드는데 AI 도움으로 쉽게 작성할 수 있게 되었다.

((AI프롬프트)): 타이타닉 데이터를 분석한 결과를 분석 보고서로 작성해 주세요. ((AI답)):

#### 타이타닉 데이터셋을 활용한 기술통계 분석 리포트

**1. 데이터 개요**

타이타닉 데이터셋은 1912년 타이타닉 호 침몰 사고의 승객 정보를 담고 있습니다. 주요 변수로는 생존여부(Survived), 승객 등급(Pclass), 성별(Sex), 나이(Age), 형제/배우자 수(SibSp), 부모/자녀 수(Parch), 승선 요금(Fare), 승선 항구(Embarked) 등이 있습니다. 총 891명의 승객 데이터가 포함되어 있습니다.

**2. 주요 변수의 요약 통계**

- **생존자 분포**
- 생존자: 342명 (38.4%)
- 사망자: 549명 (61.6%)
- → 사망자가 생존자보다 약 1.6배 많음

- **승객 등급(Pclass) 분포**
- 1등석: 216명 (24.2%)
- 2등석: 184명 (20.7%)
- 3등석: 491명 (55.1%)
- → 3등석 승객이 절반 이상을 차지

- **성별(Sex) 분포**
- 남성: 577명 (64.8%)
- 여성: 314명 (35.2%)

- **나이(Age)**
- 평균: 약 29.7세
- 중앙값: 28세
- 최빈값: 24세
- 최솟값: 0.42세 (유아)
- 최댓값: 80세
- → 20~30대 승객이 가장 많음

- **승선 요금(Fare)**
- 평균: 약 32.2 파운드
- 중앙값: 14.45 파운드
- 최솟값: 0 파운드
- 최댓값: 512.33 파운드
- → 요금 분포가 비대칭(고액 요금 승객 소수 존재)

**3. 범주형 변수별 생존률**

- **성별에 따른 생존률**
- 남성: 18.9%
- 여성: 74.2%
- → 여성의 생존률이 남성보다 월등히 높음

- **등급별 생존률**
- 1등석: 62.9%
- 2등석: 47.3%
- 3등석: 24.2%
- → 등급이 높을수록 생존률이 높음

**4. 데이터 시각화 예시**

- **생존자/사망자 비율 막대그래프**
- **등급별, 성별 생존률 누적막대그래프**
- **나이 분포 히스토그램**
- **요금 분포 상자그림(Boxplot)**

**5. 결론 및 요약**

- 타이타닉 데이터에서 3등석, 남성, 저연령층 승객이 많았음
- 여성과 1등석 승객의 생존률이 높았음
- 나이와 요금은 분포가 비대칭적이며, 일부 극단값이 존재함
- 기술통계를 통해 데이터의 전반적인 특성과 주요 변수 간의 차이를 파악할 수 있었음

---

이와 같이 기술통계 분석을 통해 데이터의 구조와 특성을 파악하고, 이후 심화 분석(예: 추론통계, 예측 모델링 등)을 위한 기초 정보를 얻을 수 있습니다.

이와 같은 것들은 기술통계뿐만아니라 추론통계에서도 사용하는 것이기 때문 이런 통계작업을 하는지 하지 않는지 여부로 구분하기는어렵다. 기술통계의 핵심은 데이터를 잘 설명하는 것이고 설명을 위해서라면 어떤 것이든 사용할 수 있다.

추론통계(Inferential Statistics)

추론통계(Inferential Statistics)는 전통적인 통계 꽃이라고 할 수 있다. 추론통계는 표본 데이터(샘플 데이터, sample data)를 이용해서 표본이 소속된 전체 집단(모집단이라고 한다)의 특성을 추정하거나 어떤 가설을 검정하는 데 목적이 있다. 일부 데이터를 통해 전체에 대한 결론을 내리거나 두 집단의 어떤 차이가 우연인지 아닌지 판단하는 등 "일반화"와 "예측"에 초점을 둔다. 추론통계는 표본에서 얻은 정보를 모집단 전체로 확장하는 과정에서 확률과 오차, 신뢰구간, 가설검정 등의 개념을 사용한다.

요약해서 말하면 표본에서 모집단으로 일반화해서 해석하는 것이 추론통계이다. 그리고 결과를 어떤 결정을 하는데 사용한다. 기술 문서나 인터넷에서 다음과 같은 용어들을 본다면 추론통계 범주에 해당하는 것이다.

  • 표본추출(Sampling)
  • 가설검정(Hypothesis Testing)
  • 신뢰구간(Confidence Interval)
  • 회귀분석(Regression Analysis)
  • 분산분석(ANOVA)

기술통계와 추론통계에 대해서 간단하게 정리하면

  • 기술통계: 데이터 자체의 요약과 설명에 집중
  • 추론통계: 표본을 통해 모집단에 대한 추론과 검정에 집중

보통 데이터 분석 책은 기술통계를 중점적으로 다루는 경우가 많다. 데이터 시각화나 보고서 작성에 중점을 두기 때문에 쉽게 접근이 가능하고 눈에 보이는 것이 많아 쉽게 접근할 수 있기 때문이다. 하지만 기술통계는 데이터의 상태를 확인하는 것이라서 매우 중요한 것이지만 데이터 분석의 전부는 아니다.

추론통계가 기술통계보다 더 어렵지만 그것이 또 기술통계가 추론통계보다 덜 중요하다는 것을 의미하지도 않는다. 이 책에서 다룰 것은 주로 기술통계에 해당하는데 추론통계를 하지 않으면 분석에서 가장 중요한 부분 중 하나를 놓치게 되므로 이 책에서는 추론통계에 관련된 부분도 일부 다룰 것이다. 보통 통계를 배우기 시작할 때 많은 사람들이 추론통계가 난해해서 포기하는 경우가 많다. 하지만 시작하고 업무에 기본적으로 활용하는 정도까지는 어렵지 않게 배울 수 있다.